O objetivo deste projeto é fazer uma explocação preliminar nos dados de vinhos tintos do dataset, que compõem de variaveis quimicas do vinho e a qualidade, e verificar quais dessas propriedades tem mais relação com a qualidade do vinho tinto.
Citação do dataset conforme solicitação do autor:
P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. Modeling wine preferences by data mining from physicochemical properties. In Decision Support Systems, Elsevier, 47(4):547-553. ISSN: 0167-9236.
Available at: [@Elsevier] http://dx.doi.org/10.1016/j.dss.2009.05.016 [Pre-press (pdf)] http://www3.dsi.uminho.pt/pcortez/winequality09.pdf [bib] http://www3.dsi.uminho.pt/pcortez/dss09.bib
Os conjunto de dados escolhido foi a de qualidade de vinhos tintos wineQualityReds.csv que já se encontra em uma estrutura e é utilizado em diversos trabalhos e disputas de analises de dados e machine learning, segue abaixo mais informações sobre os dados:
Origem dos dados: Red Wine Quality
Conjunto de Dados:
For more information, read [Cortez et al., 2009].
##### Input variables (based on physicochemical tests):
1 - fixed acidity (tartaric acid - g / dm^3)
2 - volatile acidity (acetic acid - g / dm^3)
3 - citric acid (g / dm^3)
4 - residual sugar (g / dm^3)
5 - chlorides (sodium chloride - g / dm^3
6 - free sulfur dioxide (mg / dm^3)
7 - total sulfur dioxide (mg / dm^3)
8 - density (g / cm^3)
9 - pH
10 - sulphates (potassium sulphate - g / dm3)
11 - alcohol (% by volume)
##### Output variable (based on sensory data):
12 - quality (score between 0 and 10)
1 - fixed acidity: most acids involved with wine or fixed or nonvolatile (do not evaporate readily)
2 - volatile acidity: the amount of acetic acid in wine, which at too high of levels can lead to an unpleasant, vinegar taste
3 - citric acid: found in small quantities, citric acid can add ‘freshness’ and flavor to wines
4 - residual sugar: the amount of sugar remaining after fermentation stops, it’s rare to find wines with less than 1 gram/liter and wines with greater than 45 grams/liter are considered sweet
5 - chlorides: the amount of salt in the wine
6 - free sulfur dioxide: the free form of SO2 exists in equilibrium between molecular SO2 (as a dissolved gas) and bisulfite ion; it prevents microbial growth and the oxidation of wine
7 - total sulfur dioxide: amount of free and bound forms of S02; in low concentrations, SO2 is mostly undetectable in wine, but at free SO2 concentrations over 50 ppm, SO2 becomes evident in the nose and taste of wine
8 - density: the density of water is close to that of water depending on the percent alcohol and sugar content
9 - pH: describes how acidic or basic a wine is on a scale from 0 (very acidic) to 14 (very basic); most wines are between 3-4 on the pH scale
10 - sulphates: a wine additive which can contribute to sulfur dioxide gas (S02) levels, wich acts as an antimicrobial and antioxidant
11 - alcohol: the percent alcohol content of the wine
Output variable (based on sensory data): 12 - quality (score between 0 and 10)
## [1] 1599 12
## 'data.frame': 1599 obs. of 12 variables:
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
## fixed.acidity volatile.acidity citric.acid residual.sugar
## Min. : 4.60 Min. :0.1200 Min. :0.000 Min. : 0.900
## 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090 1st Qu.: 1.900
## Median : 7.90 Median :0.5200 Median :0.260 Median : 2.200
## Mean : 8.32 Mean :0.5278 Mean :0.271 Mean : 2.539
## 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420 3rd Qu.: 2.600
## Max. :15.90 Max. :1.5800 Max. :1.000 Max. :15.500
## chlorides free.sulfur.dioxide total.sulfur.dioxide
## Min. :0.01200 Min. : 1.00 Min. : 6.00
## 1st Qu.:0.07000 1st Qu.: 7.00 1st Qu.: 22.00
## Median :0.07900 Median :14.00 Median : 38.00
## Mean :0.08747 Mean :15.87 Mean : 46.47
## 3rd Qu.:0.09000 3rd Qu.:21.00 3rd Qu.: 62.00
## Max. :0.61100 Max. :72.00 Max. :289.00
## density pH sulphates alcohol
## Min. :0.9901 Min. :2.740 Min. :0.3300 Min. : 8.40
## 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500 1st Qu.: 9.50
## Median :0.9968 Median :3.310 Median :0.6200 Median :10.20
## Mean :0.9967 Mean :3.311 Mean :0.6581 Mean :10.42
## 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300 3rd Qu.:11.10
## Max. :1.0037 Max. :4.010 Max. :2.0000 Max. :14.90
## quality
## Min. :3.000
## 1st Qu.:5.000
## Median :6.000
## Mean :5.636
## 3rd Qu.:6.000
## Max. :8.000
## [1] "Quantidade e observações que não possuem acido citrico"
## n()
## 1 132
## [1] "Quantidade e observações que o açucar residual é menor que 2.7"
## n()
## 1 1245
Gráfico de Qualidade
## [1] "Summary de Qualidade"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.636 6.000 8.000
## [1] "Summary de Qualidade: Agrupando qualidade por quantidade"
## # A tibble: 6 x 2
## quality `n()`
## <int> <int>
## 1 3 10
## 2 4 53
## 3 5 681
## 4 6 638
## 5 7 199
## 6 8 18
## [1] "Summary da nova variável quality.classification"
## # A tibble: 2 x 2
## quality.classification `n()`
## <fct> <int>
## 1 Ruim 744
## 2 Bom 855
Conforme verificado nos dados referênte a qualidade do vinho a maioria dos vinhos são de qualidade normal pois a maior parte das observações estão entre 5 e 7, e a mediana é 6, dessa forma posso rotular os vinhos de forma a criar uma nova variável para auxiliar na próximas análises, devido a concentração dos dados estarem entre 5 e 6 será criado uma nova variavel quality.classification, onde ‘Ruim’ será para vinhos de baixa qualidade onde possuem qualidade abaixo de 6 e ‘Bom’ de boa qualidade com qualidade superior ou igual à 6.
É possível ver com a nova classificação que possui mais vinhos de boa qualidade do que de baixa qualidade
Gráfico de Acidez Fixa
## [1] "Summary de Acidez fixa"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.60 7.10 7.90 8.32 9.20 15.90
Gráfico de Acidez Volátil
## [1] "Summary de Acidez Volátil"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3900 0.5200 0.5278 0.6400 1.5800
Conforme observação do autor do dataset na descrição de atributo quanto maior o a acidez volátil mais desagradável é o vinho, sendo assim o dado de acidez volátil é um dado que pode impactar a qualidade do vinho.
Com base no Clube do Vinho |Vinhos tintos e brancos tem resultados diferentes frente a acidez. Tintos mais ácidos são mais elegantes, enquanto brancos são mais refrescantes.
Com base na Revista Adega O álcool e acidez são elementos chave do vinho de qualidade. O seu papel é tão fundamental que própria decisão de iniciar vindima é condicionada pelo equilíbrio entre açúcares (que se tornarão álcool após fermentação) e acidez existentes nas uvas.
Com base nos gráficos é possível verificar que a acidez está equilibrada entre as observações, pois a maior parte das observações estão entre o primeiro quartil e terceiro quartil, da acidez fixa estão entre o mínimo de 7.10 e o terceiro quartil com 9.20, e a acidez volátil está entre o mínimo de 0.39 e o terceiro quartil de 0,64.
Ambas as distribuições acidez fixa e acidez volátil possuem caudas positivas longas, e suas médias são mais alta do que suas medianas, e tornam a mediana uma melhor medida do valor central. Além disso, a distribuição de acidez volátil tem pequena distribuição bimodal.
Gráfico de Açucar Residual
## [1] "Summary de Açucar Residual"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.900 1.900 2.200 2.539 2.600 15.500
Gráfico de Cloretos
## [1] "Summary de Cloretos"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100
Gráfico de Ácido Cítrico
## [1] "Summary de Acido Cítrico"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.090 0.260 0.271 0.420 1.000
Os parametros de ácido cítrico, açucar residual e cloreto, indicam a saborização do vinho, se será mais salgado, doce ou com refrescante por sabor cítrico.
Observando os gráficos e a sumariazação dos dados, de “saborização”, as observações estão no centro dos dados entre os o primeiro e terceiro quartil.
O ácido cítrico parece uma distribuição bimodal, e aparenta poucos valores discrepantes pelo gráfico, 50% dos valores estão entre 0.090 e 0.420 e a media está em 0.260
O açúcar residual possui a maior concentração dos dados menor que 2.6, tendo um pico aproximadamente na mediana 2.2
Os cloretos possuem o mesmo comportamento que que o açucar residual, onde 75% dos dados estao entre 0.012 e 0.09
Gráfico de Dióxido de enxofre livre
## [1] "Summary de Dióxido de Enxofre Livre"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 7.00 14.00 15.87 21.00 72.00
Gráfico de Dióxido de enxofre total
## [1] "Summary de Dióxido de Enxofre Total"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 22.00 38.00 46.47 62.00 289.00
Gráfico de Dióxido de Sulfato de Potássio
## [1] "Summary de Sulfatos"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3300 0.5500 0.6200 0.6581 0.7300 2.0000
Conforme descriçoes do autor para dióxido de enxofre e sulfato de potácio, atuam como antimicrobial e antioxidantes, o dióxido de enxofre total, pode interferir no sabor e no aroma.
O dióxido de enxofre livre segue uma distribuição normal com média proxima de 15.9, com 50% dos dados entre 7 e 21.
O dióxido de enxofre total segue uma distribuição normal com média entorno de 46.4, 50% dos dados estao entre 22 e 62
A maioria dos valores de sulfatos estão entre 0.3 e 0.7
Gráfico de Densidade
## [1] "Summary de Densidade"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9901 0.9956 0.9968 0.9967 0.9978 1.0037
Gráfico de Alcool
## [1] "Summary de Alcool"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.50 10.20 10.42 11.10 14.90
Conforme o autor, a densidade de água depende do percentual de álcool e a quantidade de açúcar residual no vinho
A densidade segue uma distribuição normal com média em 0.9967 e mediana de 0.9968
A distribuição de alcool estão entre mínimo de 8.40 e 14.90, onde 50% das observações estão entre 9.50 e 11.10, a mediana é de 10.20 e a média é de 10.42
Gráfico de pH
## [1] "Summary de pH"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.740 3.210 3.310 3.311 3.400 4.010
Conforme visto no site Revista Adega do UOL: … Nos vinhos tintos, níveis de pH muito baixos estão acompanhados por uma cor roxa brilhante. Assim que o pH vai aumentando, sombras azuladas aparecerão. Em níveis altos de pH, reflexos marrons ficam evidentes …
Sendo assim, o pH do vinho pode interferir na cor do vinho
O pH possui uma distribuição normal onde a média e a mediana estão proximas, e a faixa do pH esta aproximadamente entre 2.7 e 4
O Dataset consiste em 1599 observações e 13 atributos, sendo 1 id, 12 atributos e 1 de saída onde: 1 atributo de identificação de amostra “X” sendo o índice, que foi removida pois não fará parte da análise 11 atributos de entrada ( propriedades químicas) (fixed.acidity, volatile.acidity, citric.acid, residual.sugar, chlorides, free.sulfur.dioxide, total.sulfur.dioxide, density, pH, sulphates, alcohol) 1 atributo de saída qualidade ( qualidade dos vinhos tintos ), a análise princial será entender quais propriedades qímicas influenciam na qualidade dos vinhos tintos.
A principal característica do conjunto de dados é a qualidade, a idéia principal é tentar avaliar a o comportamento dos demais atributos interferem na qualidade do vinho com alguns outros recursos, utilizando análise bivariada e multivariada.
Eu aprendi, olhando alguns artigos na internet especializados em vinho como está em itens acima da análise, e até mesmo no link uma boa qualidade do vinho pode ser dada pelo alcool (alcool), gosto ácido (ácidos) e o dioxido de enxofre total pode influenciar no aroma do vinho, portanto pode modificar a qualidade do vinho, portanto podem ser atributos que podem ser relevantes a serem analisados como acidez fixa, acidez volátil, ácido cítrico, dióxido de enxofre álcool e qualidade.
Sim, criei 3 novas variáveis sendo:
quality.classification para auxiliar em uma classificação mais simples da qualidade de vinhos do especialista se a qualidade for manor que 6 classifiquei como Ruim = 0 e caso seja maior ou igual a 6 classifiquei como Bom = 1
total.acidity para auxiliar em um calculo de total de acidez do vinho com o total de ácidos do vinho somando a acidez fixa, a acidez volatil e o ácido citrico
quality.factor para facilitar em uso em gráficos a qualidade como factor
O açucar residual e os cloretos possuem distribuições incomuns e com maior propenções a terem outliers, mesmo com análise em log10 aplicado possui áreas sem valor com valores distantes e com cauda longa e bimodal.
## fixed.acidity volatile.acidity citric.acid
## fixed.acidity 1.000 -0.2561 0.672
## volatile.acidity -0.256 1.0000 -0.552
## citric.acid 0.672 -0.5525 1.000
## residual.sugar 0.115 0.0019 0.144
## chlorides 0.094 0.0613 0.204
## free.sulfur.dioxide -0.154 -0.0105 -0.061
## total.sulfur.dioxide -0.113 0.0765 0.036
## density 0.668 0.0220 0.365
## pH -0.683 0.2349 -0.542
## sulphates 0.183 -0.2610 0.313
## alcohol -0.062 -0.2023 0.110
## quality 0.124 -0.3906 0.226
## residual.sugar chlorides free.sulfur.dioxide
## fixed.acidity 0.1148 0.0937 -0.1538
## volatile.acidity 0.0019 0.0613 -0.0105
## citric.acid 0.1436 0.2038 -0.0610
## residual.sugar 1.0000 0.0556 0.1870
## chlorides 0.0556 1.0000 0.0056
## free.sulfur.dioxide 0.1870 0.0056 1.0000
## total.sulfur.dioxide 0.2030 0.0474 0.6677
## density 0.3553 0.2006 -0.0219
## pH -0.0857 -0.2650 0.0704
## sulphates 0.0055 0.3713 0.0517
## alcohol 0.0421 -0.2211 -0.0694
## quality 0.0137 -0.1289 -0.0507
## total.sulfur.dioxide density pH sulphates alcohol
## fixed.acidity -0.113 0.668 -0.683 0.1830 -0.062
## volatile.acidity 0.076 0.022 0.235 -0.2610 -0.202
## citric.acid 0.036 0.365 -0.542 0.3128 0.110
## residual.sugar 0.203 0.355 -0.086 0.0055 0.042
## chlorides 0.047 0.201 -0.265 0.3713 -0.221
## free.sulfur.dioxide 0.668 -0.022 0.070 0.0517 -0.069
## total.sulfur.dioxide 1.000 0.071 -0.066 0.0429 -0.206
## density 0.071 1.000 -0.342 0.1485 -0.496
## pH -0.066 -0.342 1.000 -0.1966 0.206
## sulphates 0.043 0.149 -0.197 1.0000 0.094
## alcohol -0.206 -0.496 0.206 0.0936 1.000
## quality -0.185 -0.175 -0.058 0.2514 0.476
## quality
## fixed.acidity 0.124
## volatile.acidity -0.391
## citric.acid 0.226
## residual.sugar 0.014
## chlorides -0.129
## free.sulfur.dioxide -0.051
## total.sulfur.dioxide -0.185
## density -0.175
## pH -0.058
## sulphates 0.251
## alcohol 0.476
## quality 1.000
Observações sobre o correlograma:
Avaliando não possui nenhuma correlação muito forte, as relações mais fortes estão entre 0,5 e 0,7 positiva e negativa
Verificação de relação da qualidade com demais variáveis, com base em regressão linear,
Com base na verificação os principais atributos para análise são: Acidez Fixa, Acidez Volatil, Ácido Cítrico, Dioxo de Enxofre Total, Densidade, Sulfatos, Alcool
Como o Açucar Residual, Cloretos, Dioxido de Enxofre, pH estão com baixa correlação dentre a qualidade dos vinhos, e como a qualidade é o intuito da análise, não irei utiliza-los na análises por não serem variáveis de alta relevância neste momento
Para simplificar a análise irei utilizar a variável variavel criada “total.acidity”
Portanto será utilizado as variáveis:
## total.sulfur.dioxide density sulphates
## total.sulfur.dioxide 1.00000000 0.07126948 0.04294684
## density 0.07126948 1.00000000 0.14850641
## sulphates 0.04294684 0.14850641 1.00000000
## alcohol -0.20565394 -0.49617977 0.09359475
## quality -0.18510029 -0.17491923 0.25139708
## total.acidity -0.09627567 0.67559618 0.18160349
## alcohol quality total.acidity
## total.sulfur.dioxide -0.20565394 -0.1851003 -0.09627567
## density -0.49617977 -0.1749192 0.67559618
## sulphates 0.09359475 0.2513971 0.18160349
## alcohol 1.00000000 0.4761663 -0.06666786
## quality 0.47616632 1.0000000 0.10375373
## total.acidity -0.06666786 0.1037537 1.00000000
O objetivo principal é saber como esses recursos afetam a qualidade do vinho, mas primeiro, para não ver como os outros recursos estão relacionados.
Aqui está uma relação mediana entre o álcool e a densidade do vinho. De fato, a correlação é de -0,5.
O valor de correlação para esses pares é 0,1, nenhuma relação pode ser mostrada, vendo o modelo linear dessas características (linha azul) podemos ver quase uma linha horizontal. Isso significa que a inclinação (valor de acidez total) tem muito pouca importância nessa equação.
## quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.480 8.101 8.883 9.415 10.780 12.840
## --------------------------------------------------------
## quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.270 7.570 8.300 8.647 9.300 13.450
## --------------------------------------------------------
## quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.770 7.880 8.600 8.988 9.830 16.910
## --------------------------------------------------------
## quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.390 7.710 8.640 9.118 10.186 15.350
## --------------------------------------------------------
## quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.320 8.105 9.470 9.651 10.980 17.045
## --------------------------------------------------------
## quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.660 7.933 9.095 9.381 11.002 13.630
## quality: 3
## [1] 10
## --------------------------------------------------------
## quality: 4
## [1] 53
## --------------------------------------------------------
## quality: 5
## [1] 681
## --------------------------------------------------------
## quality: 6
## [1] 638
## --------------------------------------------------------
## quality: 7
## [1] 199
## --------------------------------------------------------
## quality: 8
## [1] 18
## quality.classification: Ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.400 9.400 9.700 9.926 10.300 14.900
## --------------------------------------------------------
## quality.classification: Bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 10.00 10.80 10.86 11.70 14.00
## quality.classification: Ruim
## [1] 744
## --------------------------------------------------------
## quality.classification: Bom
## [1] 855
## quality.classification: Ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9926 0.9961 0.9969 0.9971 0.9979 1.0031
## --------------------------------------------------------
## quality.classification: Bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9901 0.9952 0.9964 0.9965 0.9977 1.0037
## quality.classification: Ruim
## [1] 744
## --------------------------------------------------------
## quality.classification: Bom
## [1] 855
## quality.classification: Ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.270 7.860 8.592 8.969 9.801 16.910
## --------------------------------------------------------
## quality.classification: Bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.320 7.795 8.850 9.248 10.495 17.045
## quality.classification: Ruim
## [1] 744
## --------------------------------------------------------
## quality.classification: Bom
## [1] 855
## quality.classification: Ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3300 0.5200 0.5800 0.6185 0.6500 2.0000
## --------------------------------------------------------
## quality.classification: Bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3900 0.5900 0.6600 0.6926 0.7700 1.9500
## quality.classification: Ruim
## [1] 744
## --------------------------------------------------------
## quality.classification: Bom
## [1] 855
## quality.classification: Ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 23.75 45.00 54.65 78.00 155.00
## --------------------------------------------------------
## quality.classification: Bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 20.00 33.00 39.35 50.00 289.00
## quality.classification: Ruim
## [1] 744
## --------------------------------------------------------
## quality.classification: Bom
## [1] 855
Conforme análisado, nenhuma das variáveis por si só possuem uma correlação muito forte com a qualidade, porém as variáveis que possuem maior correlação com a qualidade são o alcool positivamente com 0.476 e a acidez volatil negativamente -0.391, e uma correlação leve positiva com sulfatos e ácido citrico de aproximadamente de 0.25
O acido cítrico possui uma ligeria correlação moderada com a acidez fixa, acidez volátil, pH, assim como com a qualidade.
O açucar residual possui uma correlação muito baixa com os outros elementos, apenas possui uma pequena correlaçãom com a densidade de 0.35
O Dióxido de enxofre livre e total posuem uma correlação média para alta entre eles.
Dioxido de enxofre total: quanto menor, melhor a qualidade, a mediana é menor que 33 que a de vinhos com pior qualidade 45
A densidade possui uma correlação media entre a acidez fixa e o alcool, quanto maior a densidade, tende ter mais vinhos com qualidade pior.
O Sulfato não possui correlação forte com nenhum elemento, quanto maior a mediana e a media maior a qualidade, sendo assim
alcool possui uma relação mediana tendendo a fraca proximo de +/- 0.5 com a qualidade e a densidade, sendo assim favorece o entendimento que o autor nos passou que a densidade e o alcool possuem uma relação quantitativa, pois dependendo do percentual do alcool possui maior ou menor densidade, a correlação com açucar residual não possui um relacionamnto tão forte com a densidade e nem com o alcool, quanto maior o nível de alcool maior a quantidade de registro com qualidade de vinhos de boa qualidade
Os relacionamentos mais interessantes que encontrei envolvem o recurso de acido citrico pois possui correlação com acidez volatil, acidez fixa, densidade e pH, assim como acidez fixa que possui acidez fixa, acido citrico, densidade, pH
O Relacionamneto mais forte encontrado foi entre o pH e a acidez fixa de : -0.683, e a correlação mais forte com a variável de qualidade foi com o alcool de : 0.476
Aqui podemos ver que com valores com maior qualidade, os valores de densidade pelo álcool parecem estar no canto esquerdo do gráfico e com os valores mais baixos, observando o gráfico se entende que a concentração de baixa qualidade esta com a quantidade menor de alcool, assim como a densidade esta dispersa
Regressão Linear
##
## Call:
## lm(formula = quality ~ alcohol + density + fixed.acidity + volatile.acidity +
## citric.acid + sulphates + total.sulfur.dioxide, data = red_wine_quality)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.78316 -0.36672 -0.06091 0.44289 2.05714
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.730e+01 1.515e+01 1.802 0.071729 .
## alcohol 2.878e-01 2.004e-02 14.362 < 2e-16 ***
## density -2.492e+01 1.519e+01 -1.641 0.101070
## fixed.acidity 6.325e-02 1.722e-02 3.673 0.000248 ***
## volatile.acidity -1.258e+00 1.160e-01 -10.852 < 2e-16 ***
## citric.acid -3.583e-01 1.398e-01 -2.563 0.010471 *
## sulphates 7.468e-01 1.036e-01 7.206 8.86e-13 ***
## total.sulfur.dioxide -1.712e-03 5.286e-04 -3.239 0.001224 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6527 on 1591 degrees of freedom
## Multiple R-squared: 0.3496, Adjusted R-squared: 0.3468
## F-statistic: 122.2 on 7 and 1591 DF, p-value: < 2.2e-16
O R^2 ajustado é 34,6% com um p-value 2.2e-16 portanto aceitável, o valor é muito baixo
Arvore de Decisão
## Call:
## rpart(formula = quality.classification ~ alcohol + density +
## fixed.acidity + volatile.acidity + citric.acid + sulphates +
## total.sulfur.dioxide, data = red_wine_quality, method = "class")
## n= 1599
##
## CP nsplit rel error xerror xstd
## 1 0.36021505 0 1.0000000 1.0000000 0.02680849
## 2 0.02486559 1 0.6397849 0.6733871 0.02493003
## 3 0.01814516 3 0.5900538 0.6250000 0.02440820
## 4 0.01344086 5 0.5537634 0.5887097 0.02396934
## 5 0.01209677 8 0.5094086 0.5672043 0.02368903
## 6 0.01075269 9 0.4973118 0.5645161 0.02365290
## 7 0.01000000 10 0.4865591 0.5564516 0.02354302
##
## Variable importance
## alcohol sulphates density
## 35 16 15
## total.sulfur.dioxide volatile.acidity citric.acid
## 12 10 8
## fixed.acidity
## 3
##
## Node number 1: 1599 observations, complexity param=0.3602151
## predicted class=Bom expected loss=0.4652908 P(node) =1
## class counts: 744 855
## probabilities: 0.465 0.535
## left son=2 (842 obs) right son=3 (757 obs)
## Primary splits:
## alcohol < 10.25 to the left, improve=133.67330, (0 missing)
## sulphates < 0.585 to the left, improve= 77.22690, (0 missing)
## volatile.acidity < 0.5475 to the right, improve= 67.93661, (0 missing)
## total.sulfur.dioxide < 81.5 to the right, improve= 45.56073, (0 missing)
## density < 0.995685 to the right, improve= 44.52363, (0 missing)
## Surrogate splits:
## density < 0.995745 to the right, agree=0.707, adj=0.382, (0 split)
## volatile.acidity < 0.515 to the right, agree=0.620, adj=0.197, (0 split)
## citric.acid < 0.315 to the left, agree=0.611, adj=0.178, (0 split)
## sulphates < 0.675 to the left, agree=0.610, adj=0.176, (0 split)
## total.sulfur.dioxide < 47.5 to the right, agree=0.600, adj=0.156, (0 split)
##
## Node number 2: 842 observations, complexity param=0.02486559
## predicted class=Ruim expected loss=0.3408551 P(node) =0.5265791
## class counts: 555 287
## probabilities: 0.659 0.341
## left son=4 (353 obs) right son=5 (489 obs)
## Primary splits:
## sulphates < 0.575 to the left, improve=26.70698, (0 missing)
## volatile.acidity < 0.3175 to the right, improve=22.03022, (0 missing)
## total.sulfur.dioxide < 98.5 to the right, improve=18.46316, (0 missing)
## fixed.acidity < 9.95 to the left, improve=16.72252, (0 missing)
## alcohol < 9.85 to the left, improve=13.51416, (0 missing)
## Surrogate splits:
## density < 0.996225 to the left, agree=0.658, adj=0.184, (0 split)
## volatile.acidity < 0.6525 to the right, agree=0.631, adj=0.119, (0 split)
## citric.acid < 0.115 to the left, agree=0.593, adj=0.028, (0 split)
## total.sulfur.dioxide < 67.5 to the right, agree=0.590, adj=0.023, (0 split)
## fixed.acidity < 6.15 to the left, agree=0.587, adj=0.014, (0 split)
##
## Node number 3: 757 observations, complexity param=0.01344086
## predicted class=Bom expected loss=0.2496697 P(node) =0.4734209
## class counts: 189 568
## probabilities: 0.250 0.750
## left son=6 (477 obs) right son=7 (280 obs)
## Primary splits:
## alcohol < 11.45 to the left, improve=21.853830, (0 missing)
## sulphates < 0.585 to the left, improve=20.317520, (0 missing)
## volatile.acidity < 0.87 to the right, improve=17.810890, (0 missing)
## citric.acid < 0.295 to the left, improve= 7.686858, (0 missing)
## density < 0.996195 to the right, improve= 7.570733, (0 missing)
## Surrogate splits:
## density < 0.994715 to the right, agree=0.745, adj=0.311, (0 split)
## fixed.acidity < 5.85 to the right, agree=0.667, adj=0.100, (0 split)
## citric.acid < 0.635 to the left, agree=0.639, adj=0.025, (0 split)
## volatile.acidity < 0.185 to the right, agree=0.637, adj=0.018, (0 split)
## total.sulfur.dioxide < 162.5 to the left, agree=0.634, adj=0.011, (0 split)
##
## Node number 4: 353 observations
## predicted class=Ruim expected loss=0.1926346 P(node) =0.220763
## class counts: 285 68
## probabilities: 0.807 0.193
##
## Node number 5: 489 observations, complexity param=0.02486559
## predicted class=Ruim expected loss=0.4478528 P(node) =0.3058161
## class counts: 270 219
## probabilities: 0.552 0.448
## left son=10 (204 obs) right son=11 (285 obs)
## Primary splits:
## total.sulfur.dioxide < 50.5 to the right, improve=18.722640, (0 missing)
## volatile.acidity < 0.3175 to the right, improve=16.246320, (0 missing)
## fixed.acidity < 10.05 to the left, improve=15.876330, (0 missing)
## alcohol < 9.85 to the left, improve=10.399490, (0 missing)
## density < 0.99719 to the left, improve= 4.405176, (0 missing)
## Surrogate splits:
## sulphates < 1.065 to the right, agree=0.620, adj=0.088, (0 split)
## volatile.acidity < 0.7125 to the right, agree=0.609, adj=0.064, (0 split)
## density < 1.00231 to the right, agree=0.591, adj=0.020, (0 split)
## citric.acid < 0.255 to the right, agree=0.589, adj=0.015, (0 split)
## alcohol < 8.9 to the left, agree=0.585, adj=0.005, (0 split)
##
## Node number 6: 477 observations, complexity param=0.01344086
## predicted class=Bom expected loss=0.3417191 P(node) =0.2983114
## class counts: 163 314
## probabilities: 0.342 0.658
## left son=12 (134 obs) right son=13 (343 obs)
## Primary splits:
## sulphates < 0.585 to the left, improve=20.217480, (0 missing)
## volatile.acidity < 0.8675 to the right, improve=13.100820, (0 missing)
## total.sulfur.dioxide < 105.5 to the right, improve= 7.663450, (0 missing)
## fixed.acidity < 8.65 to the left, improve= 5.315013, (0 missing)
## density < 0.995995 to the right, improve= 3.387912, (0 missing)
## Surrogate splits:
## volatile.acidity < 0.835 to the right, agree=0.746, adj=0.097, (0 split)
## total.sulfur.dioxide < 14.5 to the left, agree=0.740, adj=0.075, (0 split)
## citric.acid < 0.045 to the left, agree=0.736, adj=0.060, (0 split)
## fixed.acidity < 5.7 to the left, agree=0.723, adj=0.015, (0 split)
## density < 0.99341 to the left, agree=0.721, adj=0.007, (0 split)
##
## Node number 7: 280 observations
## predicted class=Bom expected loss=0.09285714 P(node) =0.1751094
## class counts: 26 254
## probabilities: 0.093 0.907
##
## Node number 10: 204 observations
## predicted class=Ruim expected loss=0.2843137 P(node) =0.1275797
## class counts: 146 58
## probabilities: 0.716 0.284
##
## Node number 11: 285 observations, complexity param=0.01814516
## predicted class=Bom expected loss=0.4350877 P(node) =0.1782364
## class counts: 124 161
## probabilities: 0.435 0.565
## left son=22 (239 obs) right son=23 (46 obs)
## Primary splits:
## fixed.acidity < 10.75 to the left, improve=11.687290, (0 missing)
## volatile.acidity < 0.555 to the right, improve= 9.983269, (0 missing)
## density < 0.99716 to the left, improve= 7.353751, (0 missing)
## sulphates < 0.685 to the left, improve= 6.161136, (0 missing)
## citric.acid < 0.27 to the left, improve= 6.088044, (0 missing)
## Surrogate splits:
## citric.acid < 0.495 to the left, agree=0.874, adj=0.217, (0 split)
## density < 0.9995 to the left, agree=0.870, adj=0.196, (0 split)
## volatile.acidity < 0.215 to the right, agree=0.860, adj=0.130, (0 split)
##
## Node number 12: 134 observations, complexity param=0.01209677
## predicted class=Ruim expected loss=0.4253731 P(node) =0.08380238
## class counts: 77 57
## probabilities: 0.575 0.425
## left son=24 (125 obs) right son=25 (9 obs)
## Primary splits:
## volatile.acidity < 0.335 to the right, improve=6.371463, (0 missing)
## density < 0.996175 to the right, improve=4.152256, (0 missing)
## alcohol < 10.85 to the right, improve=3.643836, (0 missing)
## sulphates < 0.475 to the left, improve=2.783325, (0 missing)
## total.sulfur.dioxide < 61.5 to the left, improve=2.396352, (0 missing)
##
## Node number 13: 343 observations, complexity param=0.01344086
## predicted class=Bom expected loss=0.2507289 P(node) =0.2145091
## class counts: 86 257
## probabilities: 0.251 0.749
## left son=26 (21 obs) right son=27 (322 obs)
## Primary splits:
## total.sulfur.dioxide < 85.5 to the right, improve=13.969870, (0 missing)
## alcohol < 10.525 to the left, improve= 5.613839, (0 missing)
## sulphates < 0.745 to the left, improve= 5.219633, (0 missing)
## density < 0.996275 to the right, improve= 4.084060, (0 missing)
## volatile.acidity < 0.405 to the right, improve= 2.724901, (0 missing)
##
## Node number 22: 239 observations, complexity param=0.01814516
## predicted class=Bom expected loss=0.4979079 P(node) =0.1494684
## class counts: 119 120
## probabilities: 0.498 0.502
## left son=44 (111 obs) right son=45 (128 obs)
## Primary splits:
## volatile.acidity < 0.555 to the right, improve=6.344192, (0 missing)
## alcohol < 9.85 to the left, improve=4.071564, (0 missing)
## sulphates < 0.685 to the left, improve=3.772336, (0 missing)
## density < 0.99716 to the left, improve=3.525392, (0 missing)
## citric.acid < 0.535 to the right, improve=3.334532, (0 missing)
## Surrogate splits:
## citric.acid < 0.125 to the left, agree=0.749, adj=0.459, (0 split)
## fixed.acidity < 7.45 to the left, agree=0.623, adj=0.189, (0 split)
## alcohol < 9.75 to the right, agree=0.598, adj=0.135, (0 split)
## sulphates < 0.615 to the left, agree=0.594, adj=0.126, (0 split)
## density < 0.997235 to the left, agree=0.590, adj=0.117, (0 split)
##
## Node number 23: 46 observations
## predicted class=Bom expected loss=0.1086957 P(node) =0.02876798
## class counts: 5 41
## probabilities: 0.109 0.891
##
## Node number 24: 125 observations
## predicted class=Ruim expected loss=0.384 P(node) =0.07817386
## class counts: 77 48
## probabilities: 0.616 0.384
##
## Node number 25: 9 observations
## predicted class=Bom expected loss=0 P(node) =0.005628518
## class counts: 0 9
## probabilities: 0.000 1.000
##
## Node number 26: 21 observations
## predicted class=Ruim expected loss=0.1904762 P(node) =0.01313321
## class counts: 17 4
## probabilities: 0.810 0.190
##
## Node number 27: 322 observations
## predicted class=Bom expected loss=0.2142857 P(node) =0.2013759
## class counts: 69 253
## probabilities: 0.214 0.786
##
## Node number 44: 111 observations
## predicted class=Ruim expected loss=0.3783784 P(node) =0.06941839
## class counts: 69 42
## probabilities: 0.622 0.378
##
## Node number 45: 128 observations, complexity param=0.01075269
## predicted class=Bom expected loss=0.390625 P(node) =0.08005003
## class counts: 50 78
## probabilities: 0.391 0.609
## left son=90 (12 obs) right son=91 (116 obs)
## Primary splits:
## citric.acid < 0.535 to the right, improve=5.190374, (0 missing)
## total.sulfur.dioxide < 35.5 to the right, improve=4.254027, (0 missing)
## alcohol < 9.85 to the left, improve=3.223214, (0 missing)
## volatile.acidity < 0.265 to the right, improve=2.954307, (0 missing)
## sulphates < 0.675 to the left, improve=2.299328, (0 missing)
## Surrogate splits:
## sulphates < 0.985 to the right, agree=0.922, adj=0.167, (0 split)
## total.sulfur.dioxide < 10.5 to the left, agree=0.914, adj=0.083, (0 split)
##
## Node number 90: 12 observations
## predicted class=Ruim expected loss=0.1666667 P(node) =0.00750469
## class counts: 10 2
## probabilities: 0.833 0.167
##
## Node number 91: 116 observations
## predicted class=Bom expected loss=0.3448276 P(node) =0.07254534
## class counts: 40 76
## probabilities: 0.345 0.655
## [1] "Erro do modelo"
## [1] 0.2263915
## [1] "Acerto do modelo"
## [1] 0.7736085
As 5 variáveis com maior importância conforme a árvore de decisão são: alcohol, sulphates, density, volatile.acidity e citric.acid
Como avaliado e fui destacando na analise bivariada, portanto fui melhorando minha analise e enriquecendo com a analise multivariada, a analise do alcool comparando com outras variáveis para avaliar a qualidade do vinho, percebi que quanto maior a quantidade de alcool possuia mais observacoes com vinhos de boa qualidade, tambem, quando rodei o modelo de arvore de decisão ele iniciou a arvore com o alcool, pois identificiou como sendo uma variável de alta importancia para o modelo
Como avaliado e fui destacando na analise bivariada, portanto fui melhorando minha analise e enriquecendo com a analise multivariada, a analise do alcool comparando com outras variáveis para avaliar a qualidade do vinho, percebi que quanto maior a quantidade de alcool possuia mais observacoes com vinhos de boa qualidade, tambem, quando rodei o modelo de arvore de decisão ele iniciou a arvore com o alcool, pois identificiou como sendo uma variável de alta importancia para o modelo,
Para tentar prever a qualidade do vinho, criei um modelo linear, utilizei as variáveis que defini para alcohol, density, fixed.acidity, volatile.acidity, citric.acid, sulphates, total.sulfur.dioxide para avaliação do modelo, porém para este tipo de dado o modelo de regressão linear não é muito adequado, pois a acurácia é muito baixa com R^2 ajustado é 34,6% com um p-value 2.2e-16
Fiz outro modelo com arvore de decisão onde tive um acerto de 77,3% na predição, sendo assim o modelo foi muito mais adequado que com a regressão linear, realizei um teste utilizando todas as variáveis do dataset, mesmo assim as variáveis que são utilizadas no modelo são as utilizadas durante a análise exploratória
Alcool pela classificação de qualidade
Quando falamos de qualidade em vinho, temos que levar em consideração uma infinidade de sabores, consistência, aroma, cores e longevidade. No entanto, há apreciadores que defendem a ideia de que o teor alcoólico é o grande medidor para afirmar se um vinho é bom ou não. O vinho é composto por mais de 400 substâncias, entre elas o álcool que é o resultado da fermentação entre a glicose e a frutose das uvas. De acordo com o que observamos no gráfico acima quanto mais álcool mais saboroso e com uma qualidade maior será o vinho. Sempre na medida, o álcool é bastante importante para preservar a essência do vinho, tanto enquanto bebida, como um fator sociável de quem o aprecia. Sua presença e influência no sabor macio e adocicado de um vinho sempre será na proporção contrária da presença ácida e tanina que um tipo vinícola pode ter.
Alcool pela Acidez Total com a Qualidade
Este último gráfico analisamos duas qualidades para o vinho: a vermelha para uma qualidade de um vinho Bom e a verde para uma qualidade Ruim. Para vinhos de qualidade boa, quanto menor for a acidez, maior será o grau alcóolico em sua composição. Já para os vinhos considerados ruins esse número permaneceu na média. Lembramos que analisamos a qualidade com variáveis na forma de vetores multivariados. Os vetores multivariados, na estatística, correspondem a observações multivariadas compostas de uma coleção de p variáveis sobre n medidas diferentes tomadas do mesmo experimento. No gráfico podemos observar que a média de cada variável (média correspondente a cada linha da matriz de dados original) será representada por um elemento de um novo vetor, chamado de vetor de médias.
Arvore de Decisão
Conforme observado no gráfico acima, segundo as 5 variáveis com maior importância (alcohol, sulphates, density, volatile.acidity e citric.acid) o álcool tem uma grande parcela na divisão destes itens importantes (quase 50% no total). Sempre na medida, o álcool é bastante importante para preservar a essência do vinho, tanto enquanto bebida, como um fator sociável de quem o aprecia. Sua presença e influência no sabor macio e adocicado de um vinho sempre será na proporção contrária da presença ácida e tanina que um tipo vinícola pode ter. Tanto que a acidez é colocada no gráfico como um item importante na divisão entre os tipos de sulfatos (não alcóolicos) demonstrado acima. Um bom vinho, seja ele branco ou tinto, sempre terá uma acidez equilibrada.
O conjunto de dados posuem 1599 amostras de vinhos tintos com 13 variaveis de 2009, comecei entenendo cada variavel individualmente com uma analise univariavel, após isso continuei uma analise tendendo o entendimento o comportamento das variáveis com relação com a variavel target “qualidade”, observando os dados e os gráficos, por fim criei um modelo linear e uma arvore de decisão para melhor explicar os dados.
O que pude aprender com esta análise e com estudo de materiais externos é que vinhos com graduações alcoólicas semelhantes também terão perfis parecidos. É claro que eles não serão exatamente os mesmos, mas certamente estão inseridos em grupos bastante próximos uns aos outros. A graduação alcoólica de um vinho é um ponto importante a ser considerado ao avaliar sua qualidade. O equilíbrio perfeito entre ela e todas as nuances de sabores e aromas, além de acidez e presença de taninos é o que fazem um bom rótulo. Por isso lembre-se de levar todos esses quesitos em consideração para tomar a decisão mais rica possível.
Entendo que com esta analise tive sucesso com a abordagem que os dados cítricos e a quantidade alcoólica pode influênciar na qualidade do vinho tinto, porém para trabalhos futuros, deveriam ter mais amostras balanceadas com qualidade entre 1 a 10 pois a concentração da qualidade ficaram entre 5 e 7 sendo assim a avaliação ficou muito tendenciosa.
DataSet:
https://docs.google.com/document/d/1jX3vzkFuFOBGUrlcQ_Lc3jEZVlC_2yyk3tFIbwAI5GQ/edit https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009
Exemplos Udacity
http://adv-r.had.co.nz/Style.html https://s3.amazonaws.com/content.udacity-data.com/courses/ud651/diamondsExample_2016-05.html
Revisas e temas sobre vinho:
https://www.clubedosvinhos.com.br/acidez-no-vinho-nao-tema/ https://revistaadega.uol.com.br/artigo/o-alcool-e-a-acidez_6055.html https://revistaadega.uol.com.br/artigo/a-importancia-do-ph-no-vinho_1552.html
R documentation:
https://ggplot2.tidyverse.org/reference/
Materiais Adicionais:
Apostilas do MBA De Machine Learning e Inteligencia Artificial da Universidade FIAP de: R para Inteligencia Artificial Estatistica para inteligencia artificial